第1章音声認識とは？

第1節

音声信号から発話内容を認識する技術のことを、音声認識技術と呼びます。(p.10)

It(speech recognition) is also known as automatic speech recognition (ASR), computer speech recognition or speech to text (STT).

AIスピーカーの内部の例

音源分離（雑音除去）

音声認識

自然言語処理

組み合わされるものなのだろうか？

疑問：音声認識から直接応答だと、人によって音声データが違う（高低など）からうまくいかない？

応答

第2節

音声認識の処理（p.12 図1-3）

特徴量抽出

人間の知覚に相当（耳によって音を知覚）

フーリエ変換など

音声認識モデル

人間の認識に相当（知覚された信号が脳に届く）

機械学習で「入力音声から各認識結果候補の確率を計算するための計算規則」

英語聞き取りの例

内部処理は3つ

音響モデル

音を聞いて音素ごとの確率を計算

隠れマルコフモデルと混合正規分布（1980s〜2010）

混合正規分布がディープニューラルネットワークに置き換わる

発音辞書

音素列と単語の対応

言語モデル

文脈的に単語が現れやすい

2015〜 3つを一つのニューラルネットワークで表現するEnd-to-Endモデル

1つのモデルで表現は自然言語処理の流れとも重なる印象（第2章ニューラルネットワークを用いた自然言語処理）